from html.parser import HTMLParser
'''

'''
# 第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，
# 看看里面的内容到底是新闻、图片还是视频
class MyHTMLParser(HTMLParser):
    ctag = False

    # 处理开始标签
    def handle_starttag(self, tag, attrs):
        print('开始标签:' + tag)
        if tag == 'h1':
            for attr in attrs:
                print(attrs)
                print('attrs共有：'+str(len(attrs)+1)+'个元素')
                if attr[1] == 'center':
                    self.ctag = True
                    break

    # 处理数据
    def handle_data(self, data):
        print('处理数据')
        # 处理显示在标签之间的一些文本数据
        if self.ctag == True:
            print("提取到数据:", data)

    # 处理结束标记
    def handle_endtag(self, tag):
        print('结束标记:' + tag)
        self.ctag = False


parser = MyHTMLParser()
# 向解析器馈送数据
parser.feed('<html>'
            '<head><title>Test</title></head>'
            '<body>'
            '<h1 align="center">Big data news</h1>'
            '<h1 align="center">AI news</h1>'
            '<h1 align="right">2018.8.1</h1>'
            '</body>'
            '</html>')
